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摘要 : 天 文 数据 的 爆发 性 增长 ， 导 致 运用 传统 科学 计算 方法 生成 天 文 时 序数 据 时 效率 不 高 ， 直 
接 影响 时 域 天 文学 的 科学 产 出 。 为 了 解决 这 一 问题 ， 文 章 提出 了 减少 距离 计算 的 同 源 星 表 快速 证 
认 方 法 及 基于 MongoDB 的 应 用 方案 ， 重 点 从 原始 数据 的 访 存 优化 ， 证 认 计 算 速 度 的 提高 等 方 
面 寻 求 新 的 改进 方案 ， 以 解决 大 规模 天 文 星 表 的 批量 时 序 重 构 的 效率 问题 。 实 验 结果 表明 ， 与 基 
于 传统 多 波段 交叉 证 认 算 法 和 关系 型 数据 库 的 方法 相 比 ， 该 方法 可 以 更 有 效 地 提高 时 序数 据 的 
生成 效率 ， 为 时 域 天 文学 时 代 频 繁 采样 望远镜 大 规模 星 表 数据 的 时 序 重 构 和 光 变 曲线 的 生成 提 


供 了 新 思路 。 
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1 引 8 


近年 来 ,“ 时 域 天 文学 ”引起 了 天 文学 界 的 广泛 关注 ， 如 何 研发 适合 时 域 天 文学 的 高 性 
能 天 文海 量 数据 处 理 软件 ， 已 经 成 为 各 国 天 文 信息 学 研究 的 焦点 。 在 已 定 标的 星 表 上 通过 星 
体 相互 的 交叉 证 认 来 确定 每 一 个 天 体 在 不 同时 间 点 的 数据 ， 并 按照 时 间 进 行 排序 生成 每 个 
天 体 的 时 序数 据 ， 这 一 过 程 称 为 星 表 数 据 的 时 序 重 构 。 它 是 时 域 天 文学 研究 中 的 一 个 重要 数 
据 处 理 步 又 ， 也 是 拟 合 光 变 曲线 ， 开 展 时 域 分 析 研究 的 基础 。 

面向 大 规模 星 表 数据 的 高 效 时 序 重 构 处 理 方法 可 以 有 效 提 高 天 文 时 序数 据 产品 的 生成 
效率 ， 促 进 时 域 天 文学 研究 的 快速 发 展 。 但 目前 大 规模 星 表 的 时 序 重 构 仍 需要 攻破 长 时 区 间 
上 多 星 表 间 批量 交叉 证 认 的 计算 难题 ， 传 统 交 叉 证 认 方 法 并 不 能 满足 时 序 重 构 问 题 的 效率 
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要 求 ， 需 要 更 进一步 的 算法 优化 。 在 传统 的 异 源 星 表 多 波段 交叉 证 认 方 法 中 ， 由 于 复杂 的 距 
离 计算 和 边缘 数据 的 额外 处 理 需 要 ， 计 算 效 率 较 低 ， 而 对 于 同 源 星 表 的 时 序 重 构 ， 相 较 于 异 
源 问题 更 面临 着 一 个 重大 的 难点 : 要 进行 长 时 区 间 上 的 反复 多 次 交叉 证 认 ， 传 统 交叉 证 认 方 
法 不 足以 满足 时 序 重 构 的 效率 要 求 ， 需 要 进一步 的 算法 优化 。 

近年 来 ， 在 海量 天 文 星 表 数据 的 检索 、 存 储 与 融合 等 方面 ， 很 多 学 者 已 进行 了 深入 的 
研究 。 高 丹 等 人 中” 提出 了 基于 HTM 索引 和 KD-Tree 的 交叉 证 认 方 法 ， 但 采用 了 关系 型 数 
据 库 模式 ， 只 能 支持 几 十 万 条 数据 的 中 等 规模 星 表 ， 而 且 不 能 避免 分 块 边缘 的 漏 源 问题 。 
Zhao 等 人 “提出 了 基于 MPI 的 多 核 并 行 交叉 证 认 算 法 ， 通 过 基于 位 运算 的 快速 相 邻 块 编 
引 推导 算法 高 效 地 取得 误差 半径 范围 内 全 部 需 证 认 的 数据 ， 解 决 了 边缘 漏 源 问题 ， 但 在 数 
据 库 选择 上 采用 了 MySQL 传统 关系 型 数据 库 ， 效 率 上 仍然 无 法 满足 批量 多 星 表 间 的 证 认 
需求 。 徐 洋 等 人 ”" 提出 基于 等 经 纬 分 区 二 维 空间 网 格 的 方法 ， 但 因 其 特殊 的 分 块 方式 ， 仅 
适用 于 100 ~ 200 平方 度 的 中 等 天 区 覆盖 大 小 的 数据 。Du 等 人 ”" 则 采用 了 基于 HTM 和 
HEALPix 两 种 分 区 的 混合 证 认 计 算 算法 来 解决 星 表 数据 的 漏 源 问题 ,虽然 大 大 减少 了 漏 


TH 


= 源 现象 的 产生 ， 但 预 处 理 时 间 长 ， 在 交叉 证 认 计 算 过 程 中 也 引入 了 重复 计算 量 ， 且 采用 了 
> SQL Server 关系 型 数据 库 ， 只 能 在 Windows 平台 上 运行 ， 其 并 行 实施 和 共存 模型 也 难以 处 
日 益 增 多 的 数据 需求 。 


而 对 于 大 规模 星 表 数 据 来 说 ， 非 关系 型 数据 库 灵活 的 模型 、 丰 富 的 功能 、 非 结构 化 的 
存储 及 高 扩展 性 ， 使 得 它 更 适用 于 数据 处 理 ， 也 更 有 望 提 高 海量 天 文 数 据 重 构 计 算 方面 的 
性 能 。 目 前 越 来 越 多 的 人 发 现 了 非 关 系 型 数据 库 的 优势 ， 万 萌 ” 针对 GWAC 数据 管理 提出 
了 基于 MonetDB 数据 库 的 处 理 方案 ， 基 于 该 生成 器 的 模拟 数据 ， 使 用 MonetDB 数据 库 内 
置 SQL 实现 了 交叉 认证 计算 。MonetDB 数据 库 较 传统 关系 型 数据 库 进 行 了 适合 于 科学 数据 
计算 特点 的 优化 ， 取 得 了 较 好 的 效果 。 但 此 方法 在 规模 扩展 上 仍 存在 一 定 的 问题 ， 比 如 实 
验 已 表明 宇 ， 对 于 大 规模 累积 数据 来 说 ，MonetDB 的 支持 性 不 足 ， 且 入 库 时 间 不 够 稳定 ， 
容易 造成 数据 拥塞 。 汉 舌 等 人 呈 利用 非 关系 型 数据 库 MongoDB 存储 航 磁 大 数据 ， 证 明了 
MongoDB 在 数据 写 入 性 能 及 空间 查询 效率 方面 表现 非常 优异 。 程 江 林 基于 MongoDB 设 
计 了 灵活 的 数据 库 结构 ， 并 采用 分 片 技术 部 署 MongoDB 集群 实现 水 平 扩展 来 存储 数据 。 周 
3655 A7 gib T ÆT Spark 和 MongoDB 的 地 理 空间 数据 的 分 析 方案 ， 利 用 MongoDB 的 地 
里 空间 索引 和 查询 机 制 来 处 理 地 理 空 间 数据 。 这 些 实验 表明 MongoDB 数据 库 不 仅 查 询 速度 
快 ， 支 持 分 布 式 集群 ， 且 对 处 理 高 并 发 、 大 批量 的 地 理 空 间 数据 十 分 合适 。 

此 外 ， 交 叉 证 认 在 同 源 星 表 上 也 有 研究 。 如 Li 等 人 "提出 了 一 种 并 行 环境 下 的 同 源 星 

表 证 认 优化 算法 ， 并 使 用 动态 规划 思想 分 割 数据 ， 以 保证 并 行 环境 下 的 负载 平衡 ， 其 研究 成 

果 被 应 用 于 生成 星 表 的 光 变 曲线 ， 可 以 描述 出 天 体 的 亮度 随时 间 的 变化 。 但 他 们 仍 采用 基 习 

HTM 和 HEALPix 两 种 分 区 的 混合 证 认 计 算 方 式 来 解决 边界 漏 源 问 题 ， 重 复 计算 使 得 计算 
量 较 大 ， 他 们 采用 的 并 行 环境 也 不 适合 规模 扩展 ， 难 以 应 付 数 据 量 的 进一步 扩大 。 

虽然 当前 传统 交叉 证 认 算 法 已 经 得 到 了 多 年 的 研究 ， 方 法 已 经 较为 成 熟 ， 但 考虑 到 时 
域 天 文学 中 望远镜 的 高 采样 频率 ， 时 序 证 认 需 要 在 长 时 间 轴 上 进行 连续 星 表 间 的 反复 证 认 ， 
对 效率 要 求 更 高 ， 必 须要 更 进一步 在 存储 访问 和 证 认 计算 简化 上 下 功夫 。 本 文 研究 的 是 同 源 
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星 表 ， 有 具有 一 致 的 望远镜 系统 误差 ， 星 体 的 位 置 变动 极 小 ， 只 在 一 定 的 局 部 地 区 有 少量 的 共 
有 误差 ， 不 需要 全 部 星体 都 进行 严格 的 距离 证 认 ， 从 而 可 以 考虑 在 一 定 程度 上 减少 距离 计算 
量 ， 优 化 算法 的 复杂 度 ， 提 高 效率 ， 使 大 规模 批量 同 源 星 表 间 的 高 效 证 认 成 为 可 能 。 

综合 以 上 问题 ， 本 文 针对 天 文 星 表 数 据 的 海量 性 ， 考 虑 到 同 源 星 表 区 别 于 蜡 源 星 表 的 特 
点 ， 提 出 了 在 MongoDB 环境 下 面向 海量 同 源 星 表 数 据 的 高 性 能 时 序数 据 重 构 算法 。 而 大 量 
星 表 证 认 的 效率 问题 主要 体现 在 两 个 方面 : 1) 数据 存储 访问 效率 方面 ， 针 对 这 个 问题 本 文 
利用 了 MongoDB 的 文档 式 分 片 集群 存储 和 地 理 空间 索引 来 实现 数据 的 访 存 优化 ，2) 计算 
优化 方面 ， 本 文 提出 减少 距离 依赖 的 快速 交叉 证 认 算 法 ， 以 优化 算法 的 复杂 度 ， 并 与 传统 基 
于 距离 计算 的 方法 进行 对 比 ， 通 过 特定 区 域 的 范围 过 滤 、 局 部 证 认 计算 提高 算法 的 精度 。 对 
于 边界 源源 的 处 理 也 只 以 第 一 天 数据 为 参考 星 表 ， 加 入 元 余数 据 ， 后 面 则 不 再 需要 匈 余 数 
据 ， 从 而 提高 效率 ， 也 有 利于 数据 的 分 布 式 划分 ， 减 少 节 点 间 的 数据 通信 量 。 其 算法 的 整体 
设计 框架 图 如 图 1 所 示 。 


^] 建立 HEALPix 索 引 El 
— 


原始 星 表 文 件 预 处 理 后 的 索引 文件 


MongoDB 分 片 集 群 


图 1 整体 框架 图 
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2 星 表 数 据 的 快速 交 义 证 认 算法 


交叉 证 认 算 法 是 时 序 重 构 的 重要 一 环 ， 目 前 关于 交叉 证 认 的 算法 都 是 采用 对 星 表 中 每 
一 个 星体 都 进行 严格 距离 计算 的 证 认 方 式 ; 这 种 传统 的 证 认 方 法 都 包含 了 复杂 的 三 角 函 数 
运算 ， 虽 然 精度 很 高 ， 但 存在 由 于 计算 量 巨大 而 十 分 耗 时 的 问题 。 且 时 序 重 构 需 要 多 星 表 间 
的 批量 交叉 证 认 计算 ， 耗 时 的 传统 交叉 证 认 计算 显然 不 能 满足 实时 查询 的 要 求 ， 因 此 需要 进 
一 步 优化 算法 。 

针对 此 问题 ， 本 文 提出 了 一 种 快速 证 认 的 算法 ， 可 以 在 局 部 范围 内 减少 对 距离 计算 的 依 
赖 ， 提 高 效率 。 本 文 所 研究 的 同 源 星 表 数 据 在 位 置 定 标 后 只 存在 一 致 的 系统 误差 ， 受 图 像 对 
齐 算法 的 启发 ， 利 用 图 像 位 置 及 亮度 信息 寻找 目标 星 表 和 男 一 星 表 之 间 的 最 佳 匹 配 。 基 于 这 
一 原理 ， 拟 在 局 部 地 区 内 通过 位 置 比较 、 范 围 过 滤 及 星 等 信息 比较 来 快速 定位 相 匹 配 的 天 
体 ， 免 除 大 多 数 距 离 计算 量 ， 并 在 局 部 星体 数量 异常 、 星 等 异常 等 区 域 做 严格 距离 计算 ， 同 
时 ， 对 边缘 数据 进行 处 理 ， 减 少 因 漏 源 问题 产生 的 错误 ， 在 优化 算法 的 复杂 度 的 同时 保证 算 


T 法 的 精度 ， 提 高 了 快速 证 认 算法 的 准确 率 。 
< 2.44 HEALPix 数据 范围 过 滤 策 略 


星 表 数 据 的 数据 量 十 分 庞大 ， 我 们 先 对 原始 的 星 表 文 件 进行 处 理 ， 从 中 提取 序号 、 杰 
经 、 赤 纬 、 亮 度 等 关键 列 ， 然 后 选取 合适 的 天 区 层级 并 计算 HEALPix 索引 ， 得 出 存储 在 
MongoDB 数据 库 中 的 索引 表 ， 索 引 表 如 表 1 所 示 。 


表 1 星体 索引 表 


字段 类 型 字段 描述 
ID int Serial number 
RA Double Right ascension 
DEC Double Declination 


HEALPIXID Blank HEALPix IndexID 
LUMNANCE Double Magnitude luminance 


= 交叉 证 认 是 通过 两 个 星体 之 间 的 角 距 离 来 判断 是 否 为 同一 星体 的 过 程 ， 当 角 距 离 小 于 


G 阀 值 时 才 被 证 认为 同一 星体 。 天 球 上 的 星体 一 般 都 按照 位 置信 息 来 划分 ， 位 置 相距 过 大 的 星 


体 自然 不 可 能 是 同一 星体 ， 依 据 这 一 理论 ， 我 们 可 以 用 范围 过 滤 的 方法 降低 证 认 的 计算 量 及 
计算 次 数 。 
范围 过 滤 的 原理 如 图 2 所 示 。 证 认 计 算 首 先 被 限定 在 相同 HEALPix 分 区 中 ， 在 已 选取 


的 HEALPix 分 区 中 ， 根 据 两 张 星 体 索 引 表 ， 对 相同 分 区 中 的 星体 再 进行 区 域 的 限定 ， 根 据 
证 认 的 误差 半径 要 求 ， 在 所 查询 的 星体 周围 形成 合适 的 范围 ， 过 滤 掉 距离 相差 很 大 的 星体 ， 
避免 距离 过 大 星体 的 无 效 计算 ， 以 此 提高 交叉 证 认 距 离 计算 的 效率 和 准确 率 。 
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2.2” 免 距离 的 证 认 计 算 方 式 
考虑 到 时 序 重 构 所 涉及 的 证 认 计 算 的 对 象 主 要 为 同 源 星 表 ， 具 有 一 致 的 望远镜 系统 误 


zx, 受 图 


像 对 章 算 法 的 启发 ， 可 以 通过 局 部 天 区 与 
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体位 置 以 及 星体 亮度 的 比较 ， 对 星体 进行 


免 距 离 计 算 的 证 认 ， 即 根据 误差 半径 选取 合适 的 HEALPix 层级 ， 在 该 划分 下 落 于 同一 块 内 


的 星体 直接 认为 相互 匹配 ， 从 而 减少 复杂 


亮度 信息 进行 匹配 的 过 程 中 ， 有 可 能 会 出 现 以 下 几 种 情况 导致 还 配 错误 : (1 


分 区 内 的 某 个 与 


当 情况 (1) 和 情况 (3) 发 生 时 ， 通 常 表现 为 相同 分 区 
一 致 的 分 区 标 
区 域 ， 当 情况 (2 


R 记 为 特殊 


TR RE 


时 ， 


主体 的 位 置 接近 于 分 区 的 边缘 ， 它 在 待 证 
落 入 相 邻 分 区 中 ， 即 发 生 了 边界 漏 源 现象 ，(2) 同一 分 区 内 的 多 个 星体 位 置 
直接 匹配 导致 相互 混 请 ; 
结果 的 准确 


(2) 发 生 时 ， 我 们 对 已 经 预 
则 认为 需要 对 这 两 颗 星 体高 度 关 注 ， 并 将 该 块 标记 为 特殊 区 域 。 


区 域 的 分 区 内 的 星体 将 和 另 一 张 星 表 对 应 特殊 区 域内 的 星体 相互 进行 严格 


(3) 星 表 某 天 区 在 某 个 时 间 的 星 表 上 有 新 星体 出 现 。 
率 ， 我 们 针对 这 几 种 情况 进行 了 特殊 处 理 ， 包 


i | 数目 不 同 


i 
亮度 大 于 亮 


3 ”特殊 情况 示意 图 


E Bi (Et 


s 度 较 高 的 三 角 函 数 运算 。 但 在 对 比 两 张 星 表 位 置 及 


) 参考 星 表 中 某 


认 星 表 中 的 位 置 正 好 越过 此 边缘 而 


[图 3 所 示 。 


内 星体 数量 不 一 致 ， 


区 域 ， 为 避免 边界 漏 源 则 将 特殊 


比较 接近 ， 赤 经 
为 了 保证 证 认 


我 们 将 数量 不 


区 域 的 周围 分 区 也 一 并 标记 为 特殊 


匹配 的 两 个 星体 进行 星 等 亮度 信息 


的 比较 ， 当 超过 
被 标记 为 特殊 


E 离 计算 的 证 认 ， 
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以 此 来 尽 可 能 避免 免 距 离 计 算 的 误差 ， 保 证 快速 证 认 算 法 的 准确 率 。 
图 4 是 快速 证 认 算法 的 整体 流程 图 ， 算 法 的 基本 原理 如 下 : 
(1) 首先 根据 误差 半径 选取 细 粒 度 的 天 区 划分 层级 ， 以 保证 每 个 分 区 内 的 星体 数目 尽量 
均衡 。 
(2) 若 两 张 星 表 相同 分 区 内 的 星体 数目 相同 ， 且 星体 数目 为 1 时， 说 明 此 分 区 内 除 
了 目标 星体 无 其 他 星体 ， 可 直接 进行 亮度 的 比较 ， 知 亮度 小 于 亮度 阐 值 ， 则 直接 通过 
HEALPixID 进行 匹配 。 
(3) 当 星 体 数目 大 于 1 时 ， 为 了 找 出 两 个 分 区 内 不 同 星体 的 对 应 星体 ， 首 先 对 相同 分 区 
的 星体 进行 范围 过 滤 ， 在 范围 内 的 星体 再 进行 亮度 的 比较 : 若 亮 度 小 于 亮度 闷 值 ， 则 星体 直 
接 匹 配 ， 对 亮度 大 于 阅 值 的 星体 则 对 此 星体 所 在 的 分 区 及 其 周围 分 区 做 特殊 标记 ， 经 过 特殊 
标记 的 分 区 将 会 和 另 一 张 参 考 星 体 的 对 应 分 区 做 严格 的 距离 计算 。 
(4) 和 若 相同 分 区 内 的 星体 数目 不 同 ， 说 明 在 此 分 区 内 可 能 发 生 了 边界 漏 源 ， 也 就 是 此 分 
区 内 的 星体 落 入 到 其 他 分 区 内 ， 为 了 解决 这 一 问题 ， 则 对 此 分 区 及 周围 分 区 进行 严格 的 距离 
计算 的 证 认 算 法 ， 以 提高 证 认 计算 的 准确 度 。 


人 LPixID F 
星体 数目 是 否 相 同 


把 两 个 星 表 的 对 应 分 区 及 
每 分 区 的 相 邻 分 区 进行 严格 
的 距离 计算 ， IE ARR 


SE 


对 星体 所 在 分 区 及 
围 分 区 做 特殊 标记 


E 离 是 否 小 了 


SETA RU EL? 


亮度 之 差 小 于 
TERE? 


4 快速 证 认 算 法 流程 图 
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3 星 表 数据 的 访 存 优化 研究 


随 着 星 表 数 据 的 爆发 性 增长 ， 天 文 数据 的 访 存 速度 在 天 文 应 用 中 有 重要 影响 。 而 对 于 时 
序 重 构 而 言 ， 因 长 时 间 轴 上 的 多 星 表 间 的 证 认 量 巨大 ， 时 空 数据 的 快速 访 存 设计 是 整体 性 能 
提升 的 关键 ， 数 据 的 存储 结构 、 索 引 设计 更 是 提高 访 存 速度 的 难点 。 

为 了 解决 这 一 问题 ， 本 文选 择 使 用 MongoDB 这 一 分 布 式 的 非 关 系 型 文档 数据 库 来 存储 
数据 ， 如 图 5 所 示 。MongoDB 作为 最 接近 于 传统 关系 型 数据 库 的 NoSQL 数据 库 ， 兼 具 了 
既 能 够 做 到 读 写 性 能 的 提升 又 方便 索引 结构 建立 的 特点 ， 它 的 存储 设计 、 以 2D 和 2Dsphere 
为 基础 的 一 系列 地 理 空间 索引 和 查询 机 制 、 可 横向 扩展 功能 ， 都 让 它 在 存储 天 文 数据 时 具有 
卓越 的 性 能 ， 同 时 ， 它 面向 数据 的 模型 及 故障 自动 转移 能 力 ， 也 让 它 具 有 高 并 发 的 读 写 能 
以 及 较 好 的 系统 稳定 性 。MongoDB 存储 的 数据 都 是 BSON 结构 ， 内 部 可 以 包含 各 种 类 型 的 
文档 ， 数 据 之 中 也 可 以 内 符 其 他 数据 ， 这 种 自由 的 存储 模式 也 让 它 在 面 对 海 量 科学 数据 的 存 
储 时 ， 可 以 根据 需求 对 每 条 记录 来 添加 或 者 减少 字段 使 用 ” 。 


原始 星 表 文件 


; : 在 赤 经 赤 纬 上 建立 
生成 星 表 索 引文 件 地 理 空间 索引 


E GridFS 存 储 
Client 分 片 节点 存储 数据 


Mongos 


图 5 ”基于 MongoDB 的 访 存 优化 过 程 


3.1 ” 星 表 数据 索引 研究 

对 于 星 表 数据 来 说 ， 索 引 是 快速 查询 星 表 数据 的 关键 ， 在 多 种 天 文 数据 处 理 和 分 析 中 
都 有 重要 作用 ”。 我 们 常见 的 多 维 索 引 技术 是 空间 多 维 索 引 ， 如 R-Tree, G-Tree, KD-Tree 
等 ， 但 由 于 很 难保 证 位 置 上 相近 的 点 同属 于 一 个 分 支 节 点 或 叶子 节点 ， 导 致 上 述 索 引 在 实际 
应 用 中 不 是 很 理想 ， 且 随 着 数据 的 增多 ， 上 述 索 引 的 层次 也 随 之 增多 ， 查 询 效 率 下 降 ， 达 不 
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到 快速 索引 和 访问 的 要 求 。 而 MongoDB 的 众多 扩展 功能 之 中 ， 它 的 地 理 空间 索引 可 以 很 好 
地 支持 基于 空间 位 置 的 数据 处 理 和 计算 。 地 理 空 间 索 引 是 一 种 伪 二 维 索引 ， 它 既 可 以 实现 二 
维 空间 到 一 维 空间 的 映射 ， 又 能 保证 相 邻 的 区 域 在 一 维 空间 编码 上 仍然 相近 。 

MongoDB 中 的 空间 索引 分 为 2D, 2Dsphere, geoHaystack" ^. geoHaystack 是 一 种 特殊 
索引 ， 可 以 优化 小 面积 内 的 返回 结果 ， 提 高 平面 进行 几何 查询 时 的 效率 。 基 于 键 值 对 的 地 理 
空间 索引 是 2D 索引 和 2Dsphere 索引 ，2Dsphere 索引 可 以 理解 为 球面 经 纬度 索引 ， 支 持 查 
询 球面 几何 实体 对 象 ， 但 2Dsphere 由 于 是 球面 索引 ， 所 以 仅仅 支持 查询 经 纬度 数据 。 


2D 索引 可 以 理解 为 平面 2D 索引 ， 文 持 对 平面 地 图 和 
时 间 连 续 上 的 点 数据 索引 ，2D 索引 MongoDB 是 以 Geo- las 


Hash 技术 来 构建 的 ， 并 没有 使 用 国际 通用 的 每 一 层 32 个 
grid 的 GeoHash 的 描述 方式 ， 而 是 采用 了 平面 四 又 树 的 方 
式 。 这 一 划分 思想 与 天 文学 中 的 HEALpix 索引 划分 思想 
十 分 相似 ， 这 种 分 层 迭 代 的 四 叉 树 划分 及 其 编码 方式 保证 
了 绝 大 多 数 空间 位 置 接近 的 区 域 编码 上 同样 接近 。2D 索引 经 度 
如 图 6 所 示 。 图 6 2D 索引 

我 们 可 以 充分 利用 MongoDB 中 的 地 理 空间 索引 实现 对 数据 的 快速 定位 ， 提 高 查询 效 
率 。 根 据 4.3 节 的 实验 结果 ， 在 数据 量 大 的 星 表 数据 中 2D 索引 的 效率 明显 高 于 2Dsphere X 
引 ， 所 以 本 文选 择 对 星 表 数据 建立 2D 索引 ， 有 具体 实验 见 4.3 节 。 
3.2 ” 星 表 数据 存储 研究 

若 想 不 需 要 大 型 计算 机 就 可 以 处 理 大 规模 星 表 数据 的 存储 和 负载 ， 数 据 库 的 可 横向 扩 
展 功能 非常 重要 。MongoDB 的 分 片 就 是 对 数据 库 的 横向 扩展 ， 是 将 整个 数据 按照 给 定 的 片 
键 分 割 成 许多 的 数据 块 ， 并 将 这 些 数 据 块 存储 在 不 同 的 节点 上 ， 每 个 节点 都 维护 着 一 个 数据 
子 集 。 本 文 利用 MongoDB 的 分 片 功能 进行 数据 的 分 布 式 存储 ， 并 使 数据 均衡 分 布 在 各 个 分 


片上 ， 防 止 一 个 节点 存储 大 量 数据 导致 负载 过 大 、 搜 寻 数 据 过 慢 。 
为了 保卫 家 六 让 的 过 安全 不 广 用 Mor | 

C uq i E n 中 HUSROR 

现 高 可 用 。 副 本 集 的 结构 为 典型 的 “一 主 二 副 ” 架 TUS 


构 ， 如 图 7 所 示 ， 它 的 主 节 点 和 副 节 点 都 属于 数据 
节点 ， 都 保存 了 完整 的 数据 中 。 Ed |/ N LE 

本 文 以 “一 主 二 副 ” 的 副本 集结 构 作 为 一 个 分 副 节 点 < -~ — BIA 
片 ， 在 机 器 上 分 别 创建 分 片 一 “replcopy1” 和 分 片 (Secondary) | 
二 “replcopy2”， 并 由 两 个 分 片 和 一 个 配置 节点 作为 
一 个 集群 。 集 群 结构 如 图 8 所 示 。 

集群 搭建 完成 后 ， 分 片 信 息 存 放 在 Config Server 中 的 Shards 集合 中 ， 可 以 在 Mongos 
端口 查看 分 片 信 息 。 


7 ”数据 副本 集结 构 
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Gir PERS) nca SR 


E, 
数据 节点 (分 片 集 ) 


8 ”分 片 集群 结构 


3.3 ”存储 集群 数据 均衡 机 制 

集群 数据 的 负载 平衡 对 数据 的 读 写 效 率 起 着 至 关 重 要 的 作用 ， 很 可 能 因为 数据 分 布 不 
均 导致 某 一 节点 负载 过 大 ， 出 现 失衡 的 情况 。 而 MongoDB 通过 分 片 键 对 星 表 数据 进行 划 
分 ， 在 分 片 之 前 数据 集合 是 一 个 单一 的 数据 块 ， 分 片 依据 片 键 将 集合 拆 分 为 多 个 数据 块 ， 这 
些 数据 块 分 布 在 不 同 的 分 片上 ， 在 对 数据 进行 读 写 的 过 程 中 ， 片 键 的 选择 和 数据 平衡 机 制 对 

为 了 便于 数据 迁移 和 分 布 均 衡 ， 我 们 采用 基于 哈 希 (Hash) 的 分 片 方 式 。 如 图 9 所 示 ， 
哈 希 分 区 具有 天 然 的 静态 负载 均衡 特性 ， 它 一 般 追 求 的 是 数据 在 分 区 上 均匀 分 布 的 特性 ， 用 
户 不 必 考 虑 自己 指定 一 个 列 值 或 列 值 集 合 应 该 存在 哪个 分 区 上 ， 数 据 库 会 自动 完成 相应 的 
工作 。 因 为 在 哈 希 分 区 中 ， 数 据 都 需要 通过 统一 的 哈 希 函数 来 确定 存储 的 位 置 ， 所 以 当 创建 
分 区 列 上 的 数据 重复 率 很 低 时 ， 哈 希 分 区 能 很 好 地 将 各 个 数据 均匀 分 布 在 各 个 物理 存储 上 。 


f 1 
分 区 1 分 区 2 分 区 3 分 区 4 
Pu A A 


9 SARE 


本 文 在 星 表 数据 的 Healpix 分 区 ID 这 一 列 ( 列 名 为 hid) 创建 哈 希 分 片 键 。Healpix 层级 
的 划分 对 整体 星 表 数 据 存储 是 否 均衡 也 起 到 非常 关键 的 作用 ，Healpix 块 划分 的 大 小 影响 着 
每 个 HealpixID 中 星体 的 存储 数目 和 快速 证 认 算 法 的 证 认 准 确 性 ， 由 4.2.2 节 的 实验 可 知 ， 
当 Healpix 层级 在 13 级 时 ， 可 以 保证 每 个 HealpixID 存储 的 星 表 数 据 在 相对 均衡 的 状态 下 ， 
达到 快速 证 认 算 法 实验 的 效率 和 准确 度 的 整体 最 优化 。 在 HealpixID 上 创建 哈 希 片 键 ， 使 数 
据 随 机 均匀 地 分 布 在 节点 上 ， 既 可 以 保证 数据 均衡 性 ， 又 可 以 保证 数据 在 读 取 时 的 并 发 性 。 
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如 果 对 星 表 数 据 进行 实时 查询 ， 除 了 需要 考虑 节点 中 数据 的 存储 平衡 外 ， 还 需要 考虑 节 
点 中 数据 访问 频次 的 均衡 。 拥 有 热点 数据 的 节点 将 会 被 集中 访问 ， 这 时 我 们 可 以 在 分 片 设计 
时 考虑 关闭 MongoDB 的 均衡 器 进行 手动 分 片 ， 或 修改 MongoDB 中 的 均衡 机 制 ， 在 原本 只 
考虑 数据 块 量 负载 的 基础 上 ， 再 将 平均 数据 的 访问 时 间 间 隔 作 为 一 个 因素 考虑 进去 ， 就 可 以 
一 定 程 度 上 解决 数据 访问 频次 不 均衡 的 问题 。 


4 实验 分 析 


A. ” 软 硬 件 环境 

本 实验 的 实验 数据 为 中 国 虚 拟 天 文 台 在 网 站 上 公开 的 一 部 分 AST3 拍摄 的 HD8500 数 
据 集 。 实 验 中 ， 我 们 使 用 了 一 台 AMD Ryzen 5 3500U x8 计算 机 进行 快速 证 认 算法 和 传统 
证 认 算 法 的 对 比分 析 ， 内 存 为 8 GB, HERAN deepin15.5， 编 程 语 言 为 C+: 然后 使 用 
一 台 Intel(R)Core(TM)i5-7200U CPUG2.50GHz 的 计算 机 进行 了 MongoDB 的 读 写 性 能 测 
试 和 综合 测试 ， 内 存 为 8 GB， 操 作 系 统 为 Windows10， 编 程 语 言 为 C++ 和 pythons 
4.2 ”快速 证 认 算法 与 传统 证 认 算法 的 对 比分 析 
4.2.1 融合 亮度 信息 比较 的 准确 率 对 比 测试 

传统 的 交叉 证 认 都 采用 单一 的 基于 位 置 的 证 认 方法 ， 这 种 方法 虽然 精度 较 高 ， 但 计算 量 
十 分 巨大 ， 考 虑 到 本 文 研究 的 是 同 源 星 表 的 时 序 重 构 ， 对 于 亮度 变化 缓慢 的 长 周期 变 源 我 人 
可 以 融合 星体 的 亮度 信息 来 进一步 提高 免 距 离 计 算 时 的 效率 和 证 认 准 确 度 。 实 验 利用 两 颗 
星体 的 亮度 是 否 小 于 亮度 阔 值 来 比较 判断 两 颗 星 体 亮 度 差 异 是 否 过 大 ， 从 而 进一步 判断 这 
两 颗 星 体 是 否 为 同一 颗 星 体 。 为 了 验证 加 入 亮度 信息 比较 的 必要 性 ， 做 了 准确 率 比 较 实验 ， 
实验 数据 为 AST3 拍摄 的 HD8500 数据 中 a0507.2 和 a0507.3， 星 表 数 据 条 数 分 别 为 37818 
条 和 34940 条 ， 亮 度 阔 值 取 值 为 0.02。 
图 10 为 是 否 在 快速 证 认 算 法 种 加 入 亮度 信息 比较 的 两 种 算法 的 准确 率 ， 可 以 看 出 在 快 
速 证 认 算 法 中 加 入 星体 亮度 信息 的 比较 明显 提高 了 证 认 计算 的 准确 率 ， 使 证 认 计算 的 准确 
率 稳定 在 9996 以 上 。 
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图 10 ”融合 亮度 信息 的 准确 率 测试 
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4.2.2 不 同 HEALPix 层级 下 评价 指标 对 比 

交叉 证 认 过 程 中 ，HEALPix 层级 的 划分 影响 到 数据 分 布 的 均衡 性 及 证 认 结果 的 准确 性 ， 
为 了 更 严谨 地 判断 出 层级 划分 对 算法 影响 的 优 劣 ， 我 们 把 F1 值 作 为 HEALPix 层级 划分 的 
评价 指标 ，F1 值 由 精确 率 (precision, PP 值 ) 和 召回 率 (recall, R) 共同 计算 得 出 ， 简 要 介 
绍 如 下 : 

(1) 精确 率 。 它 表示 的 是 预测 为 正 的 样本 中 有 多 少 是 真正 的 正 样本 ， 公 式 中 包含 将 正 类 
预测 为 负 类 的 数量 (true positive, TP)， 将 负 类 预测 为 正 类 的 数量 (false positive, FP)， 计 
算 公 式 为 : 


TP 
P-TREPP C P" 
(2) 召回 率 。 它 表示 的 是 样本 中 的 正 例 有 多 少 被 预测 正确 ， 公 式 中 包含 将 正 类 预测 为 负 
类 的 数量 (false negative, FN)， 计 算 公 式 为 : 


ME 


TP 
一 ——————— g 2 
T E-TPIFN (2) 
< (3) 综合 评价 指标 (F-Measure), P 和 指标 有 时 候 会 出 现 巴 盾 的 情况 ， 这 样 就 需要 
co 综合 考虑 他 们 ， 最 常见 的 方法 就 是 了 Measure (又 称 为 了 -Score)。EF-Measure 是 Precision 和 
co : 
e Recall 加 权 调 和 平均 : 
= (a? 十 1)P x R 
Fi = 一 一 一 一 一 . 3 
a?(P + R) 3) 
当 参 数 a = 1 时 ， 就 是 最 常见 的 Ff1， 也 就 是 我 们 本 次 实验 中 用 的 F1 值 ， 如 下 : 
2xPxR 
Fl-—————— . 4 
(P+R) (4) 


日 公式 可 知 Fl1 综合 了 已 和 尺 的 结果 ， 当 F1 较 高 时 ， 则 说 明 实 验方 法 比较 有 效 。 
由 图 11 可 知 ，HEALPix 层级 越 低 ， 划 分 的 天 区 越 大 ， 落 入 同一 天 区 的 星体 数目 越 多 ， 
匹配 时 易 发 生 混 消 导 致 匹配 错误 ，HEALPix 层级 越 高 ， 划 分 的 天 区 越 小 ， 过 小 的 天 区 易 使 


juni 


.和 星体 跨越 边界 落 入 相 邻 分 区 中 ， 导 致 本 来 可 以 匹配 的 星体 因 分 区 ID 不 同 无 法 匹配 ， 从 而 丢 
= 失 数据 。 所 以 在 HEALPix 取 17 级 时 虽然 精确 率 可 达 100%， 但 召回 率 极 低 ， 说 明星 表 数 据 


在 天 区 划分 过 细 的 情况 下 会 大 量 丢 失 证 认 结 果 ， 对 于 时 序 重 构 来 说 ， 证 认 结 果 的 丢失 势必 会 
极 大 影响 光 变 曲线 的 生成 ， 而 在 13 级 时 1 值 最 高 ， 所 以 我 们 选择 HEALPix 层级 为 13 级 ， 
可 以 使 算法 达到 最 优 。 
4.9.8 ”四 种 减少 距离 计算 的 证 认 方 法 评价 指标 对 比 

为 了 验证 本 文 提 出 的 快速 证 认 方 法 的 有 效 性 ， 下 面 分 别 对 四 种 可 减少 距离 计算 的 证 认 
方法 进行 Ff1 值 的 对 比 ，4 种 具体 证 认 方 法 如 下 : 

(1) 证 认 星 表 间 相同 HEALPix 块 号 的 星体 若 数目 相同 ， 直 接 经 范围 过 滤 后 匹配 输出 ， 
在 范围 内 的 星体 认为 匹配 成 功 ， 当 相同 块 号 内 星体 数目 不 等 时 ， 在 范围 内 的 星体 直接 匹配 ， 

9 星体 证 认 失 败 。 
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(2) 证 认 星 表 间 相同 HEALPix 块 号 的 星体 若 数 目 相 同 ， 直 接 经 范围 过 滤 后 匹配 输出 ， 
在 范围 内 的 星体 认为 匹配 成 功 ， 两 块 内 星体 数目 不 等 时 ， 两 个 HEALPix 块 标记 为 特殊 区 
域 ， 两 块 内 星体 严格 距离 证 认 ， 但 不 进行 周围 块 的 标记 和 证 认 。 

(3) 证 认 星 表 间 相同 HEALPix 块 号 的 星体 若 数目 相同 ， 直 接 经 范围 过 滤 后 匹配 输出 ， 
在 范围 内 的 星体 认为 匹配 成 功 ; 两 块 内 星体 数目 不 等 时 ， 两 个 HEALPix 块 标记 为 特殊 区 
域 ， 两 块 内 星体 严格 距离 证 认 ， 且 进行 周围 块 的 标记 和 证 认 。 

(4) 证 认 星 表 间 相同 HEALPix 块 号 的 星体 阁 数 目 相 同 且 为 1 时， 对 比 两 颗 星体 的 亮度 ， 
亮度 小 于 亮度 阔 值 的 星体 匹配 成 功 ; 若 星 体 数目 相同 且 大 于 1 时， 经 范围 过 滤 和 亮度 比较 后 
留 下 的 星体 认为 匹配 成 功 。 两 块 内 星体 数目 不 等 时 或 对 应 星体 的 亮度 大 于 亮度 阔 值 时 ， 两 个 
HEALPix 块 标记 为 特殊 区 域 ， 两 块 内 星体 严格 距离 证 认 ， 且 进行 周围 块 的 标记 和 证 认 。 

由 图 12 可 知 ， 方 法 (1) 性 能 最 差 ， 原 因 是 没有 考虑 边界 漏 源 问题 及 一 对 多 或 多 对 一 星 
体 证 认 问 题 ， 且 直接 通过 块 号 匹配 导致 召回 率 和 准确 率 很 低 。 而 方法 (4) 则 根据 相同 块 号 内 
星体 数目 相同 或 不 同 采 取 不 同 证 认 方式 ， 融 合 了 星 等 信息 ， 加 入 范围 过 滤 和 对 边界 漏 源 的 考 
虑 ， 极 大 地 提高 了 算法 的 性 能 ， 所 以 本 文 的 快速 证 认 算 法 采用 了 方法 (4). 

4.2.4 快速 证 认 算法 与 传统 证 认 算 法 的 速率 及 准确 率 对 比 测试 

为 了 显示 快速 证 认 算法 的 性 能 ， 我 们 选取 了 AST3 拍摄 的 HD8500 文件 的 部 分 数据 作为 
测试 数据 ， 在 采用 一 个 节点 的 情况 下 与 传统 证 认 算 法 进行 了 对 比分 析 。 图 13 显示 求 出 所 需 
要 的 时 间 ， 我 们 发 现 相 同 数据 量 下 快速 证 认 算 法 所 用 的 计算 时 间 明 显 小 于 传统 的 证 认 算 法 。 
图 14 是 两 种 算法 所 得 出 证 认 结 果 数 据 量 的 对 比 ， 发 现 两 种 算法 的 计算 结果 数据 量 相差 
无 几 。 我 们 以 经 过 严格 距离 计算 的 传统 证 认 方 法 得 出 的 证 认 结 果 为 标准 ， 再 与 快速 证 认 算 法 
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得 出 的 结果 进行 比较 。 如 图 15 所 示 ， 蓝 色 曲 线 为 快速 证 认 算 法 的 准确 率 曲 线 ， 可 以 看 出 快 
速 证 认 算法 的 准确 率 极 高 ， 都 在 99.5% 以 上 。 
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15 ”快速 证 认 算 法 的 准确 率 


从 前 面 的 对 比 可 知 ， 相 比 传统 说 


F 认 算法 ， 快 速 证 认 算法 加 入 了 对 星体 的 范围 过 滤 和 亮度 


比较 ， 以 及 运用 了 免 距离 的 证 认 算 法 ， 在 保证 了 一 定 准 确 率 的 基础 上 ， 避 免 了 大 量 的 距离 计 
算 ， 大 大 减少 了 证 认 计 算 的 时 间 ， 提 高 了 证 认 的 效率 ， 可 以 更 快 得 出 证 认 计算 结果 。 
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4.3 MongoDB 的 读 写 性 能 测试 
4.3.1 MongoDB 的 索引 性 能 对 比 测试 

MongoDB 的 地 理 空间 索引 在 查询 地 理 数据 时 效率 更 高 ， 下 面 对 比 了 MongoDB 的 2D 
平面 索引 、2Dsphere 索引 以 及 在 HEALPixID 这 一 列 建立 的 B 树 索 引 查 询 数据 的 效率 。 


表 2 MongoDB 索引 对 比 表 


nO 时 间 /s 
ny 
1 5.0X 104 14.163 14.257 12.135 
2 1.5x10? 41.388 53.332 44.993 
3 3.0X10? 66.244 83.341 116.342 
4 6.0 X 10? 142.424 199.42 160.42 
5 7.5X 105 202.432 225.576 243.345 


由 表 2 可 以 看 出 ， 在 数据 量 较 大 时 ，2Dsphere 球面 索引 的 效率 明显 要 低 于 2D 平面 索引 
的 效率 。 所 以 我 们 对 星 表 数据 的 赤 经 赤 纬 建立 2D 索引 。 
4.3.2” 哈 希 分 区 的 数据 均衡 测试 

哈 希 函数 会 使 数据 随机 分 片 ， 我 们 可 以 利用 哈 希 分 区 这 一 静态 负载 均衡 的 特性 将 星 表 
数据 在 一 定 范 围 内 均衡 地 分 布 在 不 同 的 分 片 节点 上 。 下 面 进行 了 在 星 表 数 据 的 HEALPixID 
这 一 列 建立 哈 希 索引 和 也 树 索 引 作为 片 键 的 两 种 情况 下 数据 分 布 对 比 测试 。 

从 图 16 我 们 可 以 看 出 ， 建 立 普通 的 B 树 索引 会 导致 数据 分 布 不 均 ， 节 点 间 存 储 数 据 数 
目 差距 巨大 ， 而 哈 希 分 区 的 负载 均衡 效果 十 分 明显 ， 可 以 使 数据 在 所 有 节点 间 达 到 基本 的 均 
匀 分 布 ， 从 而 分 散 不 同 节点 对 数据 的 读 写 压力 。 
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图 16 RARS (图 a)) 和 了 B 树 索引 (图 b)) 作为 片 键 的 数据 分 布 对 比 
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4.4 ”综合 测试 

传统 时 序数 据 生成 方法 是 将 星 表 文件 导入 关系 型 数据 库 ， 并 通过 交叉 证 认 的 结果 对 不 
同时 间 段 的 星体 进行 MatchID 标记 ， 再 匹配 数据 库 中 相同 ID 标记 的 星体 ”， 然 后 将 结果 导 
入 到 文件 中 ， 最 后 可 以 根据 这 些 文件 生成 时 序数 据 。 本 实验 选取 了 AST3 拍摄 的 HD88500 
部 分 星 表 文件 作为 测试 数据 ， 每 个 星 表 文件 的 数据 量 基 本 都 在 29000 ~ 39000 的 区 间 内 ， 
下 面 对 本 文 方法 与 传统 时 序数 据 生成 方法 作 了 对 比 测试 。 

根据 表 3 中 的 实验 结果 可 以 看 出 ， 基 于 MongoDB 的 快速 证 认 算法 显然 比 一 般 传统 的 方 
法 更 加 高 效 ， 而 且 随 着 数据 量 的 增 大 ， 效 果 越 明显 。 


表 3 传统 证 认 方 法 与 快速 证 认 方 法 的 比较 

属性 HD88500 

星 表 文 件数 目 /个 16 22 30 60 120 
传统 证 认 方 法 /min | 6.30 9.44 17.01 38.15 87.40 
快速 证 认 方 法 /min | 4.18 6.20 10.94 21.32 48.07 


5 总 结 


AUS 


本 文 设计 了 一 种 基于 MongoDB 的 海量 天 文 星 表 数据 的 快速 时 序 重 构 方法 。 一 方面 利用 
MongoDB 的 文档 型 存储 和 地 理 空间 索引 提高 了 存储 和 查询 数据 的 效率 ， 男 一 方面 通过 特定 
区 域 的 范围 过 滤 、 星 等 信息 比较 及 局 部 证 认 计算 代 蔡 全 局 计算 ， 来 减少 传统 交叉 证 认 方 法 中 
的 距离 计算 量 。 实 验 结果 证 明 ， 本 文 在 数据 的 访 存 优化 、 证 认 算 法 效率 等 方面 取得 了 一 定 的 
改进 效果 ， 特 别 是 对 于 海量 同 源 星 表 的 连续 时 间 上 的 证 认 问 题 ， 本 研究 的 快速 时 序 重 构 方法 
具有 良好 的 应 用 价值 ， 可 以 有 效 解决 大 规模 天 文 星 表 的 批量 时 序 重 构 的 访 存 、 计 算 效率 等 问 
题 ， 从 而 推动 时 域 天 文学 时 代 星 体 光 变 曲线 相关 研究 。 


参考 文献 : 


高 丹 , KER, 赵 永恒 . 天 文 研究 与 技术 , 2005, 2(3): 186 

高 丹 . 博士 论文 . 北京 : 中 国 科学 院 国 家 天 文 台 , 2008: 1 

Zhao Q, Sun J, Yu C, et al. ICA3PP, 2009: 604 

Zhao Q, Sun J, Yu C, et al. Transactions of Tianjin University, 2011, 17(1): 62 

RYE, 吴 潮 , 7388, 等 . 天 文 研究 与 技术 , 2013, 10(3): 273 

徐 洋 . 硕士 论文 . 湖北 : 三 峡 大 学 , 2013: 1 

TENÉS. 硕士 论文 . 山东 : 山东 大 学 , 2013: 1 

Du P, Ren J J, Pan J C, et al. Science China: Physics Mechanics & Astronomy, 2014, 57 (3): 577 
Jud. 博士 论文 . 北京 : 中 国 科学 院 国 家 天 文 台 , 2016: 1 

[10] 杨 晨 , MHE, mE, 等 . 计算 机 研究 与 发 展 , 2017, 54(2): 248 


Q 'o| - oO) OU 4 ww c 


314 天 文学 进展 40 卷 


11] 1524, 杨 昭 颖 , 李 文 吉 , 等 . 地 质 学 刊 , 2019, 43(03): 421 

12] 程 江 林 . 硕士 论文 . 安徽 : 安徽 大 学 , 2020: 1 

13] A, 刘 超 , 徐 树 楠 , 等 . 测绘 与 空间 地 理 信息 , 2018, 41(09): 71 

14] Li K, Yu C, Tang S, et al. 15th IEEE International Symposium on Parallel and Distributed Processing 
with Applications. Guangzhou, China, 2017: 1074 
15] 任 明 飞 , 李 学 军 , PRORA, 等 . 电脑 知识 与 技术 , 2019, 15(34): 1 
16] 徐 思路 . 硕士 论文 . 辽宁 : 大 连 海事 大 学 , 2018: 1 
17] Kristina Chodorow. MongoDB 权威 指南 (第 2 版 ). 邓 强 , EIXE, 译 . 北京 : 人 民 邮 有 
18] IKEA, KERIA. MongoDB 从 入 门 到 商业 实战 . 北京 : 北京 电子 出 版 社 , 2019: 47 
19] 能 聪 聪 , 付 立 艳 , 赵 青 . 计算 机 应 用 与 软件 , 2021, 38(04): 17 


[n 
EE 


HR, 2014: 121 


Research on Fast Time Series Reconstruction of Massive 


Astronomical Catalog Data Based on MongoDB 


XU Dan-ying， ZHAO Qing, QUAN Wen-li, SONG Hong-zhuang 


(College of Artificial Intelligence, Tianjin University of Science & Technology, Tianjin 300457, China) 


Abstract: The explosive growth of astronomical data leads to low efficiency in the gener- 
ation of astronomical time series data by traditional scientific calculation methods, which 
directly affects the scientific output of time domain astronomy. In this paper, we propose à 
fast method to authenticate the same catalog and a MongoDB-based application to reduce 
the distance computation. In order to solve the efficiency problem of batch time series re- 
construction of large-scale astronomical catalogues, we focus on the optimization of original 
data access and the improvement of authentication computation speed. 

'The experimental results show that this method can improve the efficiency of time series 
data generation more effectively than the traditional multi-band cross-validation algorithm 
and relational database method, it provides a new idea for the reconstruction of time series 
and the generation of light curves for the large-scale catalogue data of the time-domain 


astronomical time-frequency sampling telescope. 
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